准确的蛋白质结构预测可以显着加速生命科学的发展。 Alphafold2的准确性是边界端到端结构预测系统,已经接近实验确定技术的准确性。由于复杂的模型体系结构和大量的内存消耗,因此需要大量的计算资源和时间来实施从头开始实施Alphafold2的训练和推断。对于大多数个人和机构来说,运行原始AlphaFold2的成本都是昂贵的。因此,降低这一成本可以加速生命科学的发展。我们使用PaddlePaddle(即HelixFold)实现Alphafold2,以提高训练和推理速度并减少记忆消耗。操作员融合,张量融合和混合并行性计算改善了性能,而通过重新计算,BFLOAT16和内存读/写入/编写就场,内存进行了优化。与原始的Alphafold2(由JAX实施)和OpenFold(由Pytorch实施)相比,HelixFold仅需7.5天即可完成完整的端到端培训,并且在使用Hybrid ParalleleSism时只需要5.3天,而Alphafold2和OpenFold都可以使用11个。天。 Helixfold节省了1倍的训练时间。我们验证了HelixFold的准确性可能与CASP14和CAMAO数据集上的Alphafold2相当。 HelixFold的代码可免费下载:https://github.com/paddlepaddle/paddlehelix/paddlehelix/tree/dev/dev/pprotein_folding/helixfold,我们还在https://paddlehelix.baidu.com/com上提供稳定的Web服务。应用程序/药物/蛋白质/预测。
translated by 谷歌翻译
一个良好的动作效果预测模型,称为环境模型,对于在机器人控制,推荐系统和患者治疗选择等许多领域中实现样本有效的决策政策学习非常重要。我们可以使用这种模型进行无限的试验来确定适当的行动,以便可以节省现实世界中的查询成本。它要求模型正确处理看不见的数据,也称为反事实数据。但是,标准数据拟合技术不会自动实现这种概括能力,通常会导致不可靠的模型。在这项工作中,我们在模型学习中引入了反事实风险最小化(CQRM),以推广到特定目标策略查询的反事实数据集。由于目标策略在政策学习中可能是各种各样且未知的,因此我们提出了一个对抗性CQRM目标,其中模型在对抗性策略查询的反事实数据上学习,并最终得出可拖延的解决方案Galileo。我们还发现,对抗性CQRM与对抗模型学习密切相关,从而解释了后者的有效性。我们将伽利略应用于综合任务和现实应用程序中。结果表明,伽利略对反事实数据做出了准确的预测,从而显着改善了现实世界测试的策略。
translated by 谷歌翻译
自我监督的语音表示学习在各种语音处理任务中显示出令人鼓舞的结果。但是,预先训练的模型,例如休伯特是存储密集型变压器,限制了其在低资源设置下的应用程序范围。为此,我们建议通过修剪结构化参数自动找到所需的体系结构Lighthubert,这是一个曾经是变压器的压缩框架。更确切地说,我们创建了一个基于变压器的超级网,该超网嵌套着数千个重量共享子网,并设计了一个两阶段的蒸馏策略,以利用休伯特的上下文化潜在表示。关于自动语音识别(ASR)和出色基准的实验表明,拟议的lighthubert可实现$ 10^9 $的架构,该体系结构涉及嵌入尺寸,注意力维度,头部编号,进率向前网络比率和网络深度。 Lighthubert优于ASR上的原始Hubert和Hubert大小的五个出色的任务,在大多数任务中,在大多数任务中都具有可比的性能,并减少了29%的参数,并获得了$ 3.5 \ times $ times $ compression $压缩比在三个超级任务中,例如自动扬声器验证,关键字发现和意图分类,略有准确的损失。代码和预培训模型可在https://github.com/mechanicalsea/lighthubert上找到。
translated by 谷歌翻译
用于图像文本生成任务的传统方法主要是分别解决自然双向生成任务,专注于设计任务特定的框架以提高所生成的样本的质量和保真度。最近,Vision-Language预训练模型大大提高了图像到文本生成任务的性能,但仍未开发出用于文本到图像综合任务的大规模预训练模型。在本文中,我们提出了一个具有变压器模型的双向图像文本生成的统一生成的预训练框架的Ernie-Vi​​lg。基于图像量化模型,我们将图像生成和文本生成标准为在文本/图像输入上调节的自回归生成任务。双向图像文本生成建模简化了视觉和语言的语义对齐。对于文本到图像生成过程,我们进一步提出了端到端的训练方法,共同学习视觉序列发生器和图像重建。为了探讨双向文本图像生成的大规模预培训景观,我们在大规模数据集中培训了100亿参数的Ernie-Vi​​lg模型,以145百万(中文)图像 - 文本对实现了达到的状态 - 文本到图像和图像到文本任务的最佳性能,以便在MS-Coco上获取7.9的FID,用于文本到图像合成以及用于图像标题的Coco-CN和AIC-ICC的最佳结果。
translated by 谷歌翻译
预先接受的语言模型实现了最先进的导致各种自然语言处理(NLP)任务。 GPT-3表明,缩放预先训练的语言模型可以进一步利用它们的巨大潜力。最近提出了一个名为Ernie 3.0的统一框架,以预先培训大型知识增强型号,并培训了具有10亿参数的模型。 Ernie 3.0在各种NLP任务上表现出最先进的模型。为了探讨缩放的表现,我们培养了百卢比的3.0泰坦参数型号,在PaddlePaddle平台上有高达260亿参数的泰坦。此外,我们设计了一种自我监督的对抗性损失和可控语言建模损失,以使ERNIE 3.0 TITAN产生可信和可控的文本。为了减少计算开销和碳排放,我们向Ernie 3.0泰坦提出了一个在线蒸馏框架,教师模型将同时教授学生和培训。埃塞尼3.0泰坦是迄今为止最大的中国密集预训练模型。经验结果表明,Ernie 3.0泰坦在68个NLP数据集中优于最先进的模型。
translated by 谷歌翻译
分布式培训已成为培训大型神经网络(NN)模型的普遍性和有效的方法,该模型加工大规模数据。然而,满足来自各种NN模型,多样化计算资源的要求以及在培训工作期间的动态变化是非常挑战的。在这项研究中,我们在系统的端到端视图中设计了我们的分布式训练框架,以提供不同场景的内置自适应能力,特别是对于工业应用和生产环境,通过完全考虑资源分配,模型分区,任务放置和分布式执行。基于统一的分布式图和统一群集对象,我们的自适应框架配备了全球成本模型和全局计划者,可以实现任意并行,资源感知的放置,多模式执行,容错和弹性分布式。训练。实验表明,我们的框架可以满足应用程序的多样性和资源的异质性满足各种要求和具有竞争力的性能。具有260亿参数的Ernie语言模型在数千个AI处理器上有效地培训,可扩展性较弱的91.7%。通过采用异质管道异步执行,从推荐系统的模型的吞吐量可以分别增加到2.1倍,仅增加了GPU和CPU培训的3.3倍。此外,容错和弹性分布式培训已成功应用于在线工业应用,这减少了长期培训工作的数量,增加了34.49%,并在全球调度效率增加了33.91%生产环境。
translated by 谷歌翻译
深神经网络(DNN)利用多层和大量参数来实现优异的性能。 DNN模型的培训过程通常处理具有许多稀疏功能的大规模输入数据,引起高输入/输出(IO)的成本,而一些层数是计算密集型的。培训过程通常利用分布式计算资源来减少培训时间。此外,异构计算资源,例如CPU,多种类型的GPU,可用于分布式训练过程。因此,多个层对不同计算资源的调度对于训练过程至关重要。为了使用异构计算资源有效地训练DNN模型,我们提出了一种分布式框架,即桨式异构参数服务器(Paddle-Heterps),由分布式架构和加强学习(RL)的调度方法组成。与现有框架相比,Paddle-Heterps的优点是三倍。首先,Paddle-hotior是通过异构计算资源的多样化工作负载的高效培训过程。其次,Paddle-Heterps利用基于RL的方法以有效地将每层的工作量调度到适当的计算资源,以最小化成本,同时满足吞吐量约束。第三,Paddle-hotips管理分布式计算资源之间的数据存储和数据通信。我们进行了广泛的实验,以表明Paddle-hotors在吞吐量方面显着优于最先进的方法(更高14.5倍)和货币成本(312.3%较小)。框架的代码可在:https://github.com/paddlepaddle/paddle公开使用。
translated by 谷歌翻译
Generalizability to unseen forgery types is crucial for face forgery detectors. Recent works have made significant progress in terms of generalization by synthetic forgery data augmentation. In this work, we explore another path for improving the generalization. Our goal is to reduce the features that are easy to learn in the training phase, so as to reduce the risk of overfitting on specific forgery types. Specifically, in our method, a teacher network takes as input the face images and generates an attention map of the deep features by a diverse multihead attention ViT. The attention map is used to guide a student network to focus on the low-attended features by reducing the highly-attended deep features. A deep feature mixup strategy is also proposed to synthesize forgeries in the feature domain. Experiments demonstrate that, without data augmentation, our method is able to achieve promising performances on unseen forgeries and highly compressed data.
translated by 谷歌翻译
In this work, we investigate improving the generalizability of GAN-generated image detectors by performing data augmentation in the fingerprint domain. Specifically, we first separate the fingerprints and contents of the GAN-generated images using an autoencoder based GAN fingerprint extractor, followed by random perturbations of the fingerprints. Then the original fingerprints are substituted with the perturbed fingerprints and added to the original contents, to produce images that are visually invariant but with distinct fingerprints. The perturbed images can successfully imitate images generated by different GANs to improve the generalization of the detectors, which is demonstrated by the spectra visualization. To our knowledge, we are the first to conduct data augmentation in the fingerprint domain. Our work explores a novel prospect that is distinct from previous works on spatial and frequency domain augmentation. Extensive cross-GAN experiments demonstrate the effectiveness of our method compared to the state-of-the-art methods in detecting fake images generated by unknown GANs.
translated by 谷歌翻译
The success of deep learning is partly attributed to the availability of massive data downloaded freely from the Internet. However, it also means that users' private data may be collected by commercial organizations without consent and used to train their models. Therefore, it's important and necessary to develop a method or tool to prevent unauthorized data exploitation. In this paper, we propose ConfounderGAN, a generative adversarial network (GAN) that can make personal image data unlearnable to protect the data privacy of its owners. Specifically, the noise produced by the generator for each image has the confounder property. It can build spurious correlations between images and labels, so that the model cannot learn the correct mapping from images to labels in this noise-added dataset. Meanwhile, the discriminator is used to ensure that the generated noise is small and imperceptible, thereby remaining the normal utility of the encrypted image for humans. The experiments are conducted in six image classification datasets, consisting of three natural object datasets and three medical datasets. The results demonstrate that our method not only outperforms state-of-the-art methods in standard settings, but can also be applied to fast encryption scenarios. Moreover, we show a series of transferability and stability experiments to further illustrate the effectiveness and superiority of our method.
translated by 谷歌翻译